Modelos pequeños: exploradores naturales para diversidad en GRPO
Descubre cómo los modelos pequeños mejoran la diversidad en GRPO y entrenan modelos grandes con mayor eficiencia. Aumenta el rendimiento en razonamiento matemático.
Descubre cómo los modelos pequeños mejoran la diversidad en GRPO y entrenan modelos grandes con mayor eficiencia. Aumenta el rendimiento en razonamiento matemático.